java - 从 URL 中提取 HTML
全部标签 我正在构建一个爬虫,我知道如何使用rubymechanize使用以下代码从网上读取页面:require'mechanize'agent=Mechanize.newagent.get"http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗?怎么办? 最佳答案 仅使用file://协议(protocol)对我来说效果很好:html_dir=File.dirname(__FILE__)page=agent.get("file:///#{html_dir}/example-file.html"
如果我有以下Sinatra代码:get'/hi'doerb:helloend如果我有一个名为views/hello.erb的文件,这会很好用。但是,如果我有一个名为views/hello.html.erb的文件,Sinatra找不到该文件并给我一个错误。我如何告诉Sinatra我希望它查找.html.erb作为有效的.erb扩展名? 最佳答案 Sinatra使用Tilt呈现其模板,并将扩展与其相关联。您所要做的就是告诉Tilt它应该使用ERB来呈现该扩展:Tilt.registerTilt::ERBTemplate,'html.er
给定任何有效的HTTP/HTTPS字符串,我想解析/转换它,以便最终结果恰好是字符串的根。因此给出的URL:http://foo.example.com:8080/whatsit/foo.bar?x=yhttps://example.net/我想要结果:http://foo.example.com:8080/https://example.net/我找到了documentation对于URI::Parser不是super平易近人。我最初的天真解决方案是一个简单的正则表达式,例如:/\A(https?:\/\/[^\/]+\/)/(即:匹配协议(protocol)后的第一个斜杠。)欢迎提
编辑:请参阅下面未回答的第二部分。(已回答)I.附加URL我正在尝试使用基本参数指南在我的View中堆叠参数:users_path(:a=>'test')以上将返回:?a=test但是,我希望能够连续点击:users_path(:b=>'goat')并让它返回?a=test&b=goat关于如何堆叠/附加这些URL参数有什么建议吗?(未回答)II.移除参数如果我想在参数设置旁边添加一个[x]链接,我该如何删除其相应的参数?(已回答)三。删除页面参数我想在用户选择参数选项时删除page参数。有没有办法做到这一点?很明显,如果我选择“体育”作为参数类别,则分页不应保留在第26页上。
是否有Ruby'sVCR的java替代品??据我所知,使用VCR的好处是巨大的,您可以运行“集成测试”并记录结果,将它们存储在本地某个地方。现在,从下次需要运行测试时起,您可以使用第一次运行时记录的数据模拟实际数据库命中。Java世界中有类似的东西吗?如果没有,如果我尝试实现它可能会遇到什么样的瓶颈?VCR只记录HTTP交互,但是否可以采用这种方法来记录,比如对其他团队的API的任何类型的数据库操作/函数调用,我不需要测试,基本上这将使我免于模拟所以通过自动化来完成很多事情。Here是带有Ruby单元测试的VCR示例: 最佳答案 查
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:RubycodetoextracthostfromURLstring我发现这个模块叫做URI可以解析url。(我是ruby的新手。在这种情况下,“模块”是否与“库”同义?)然后您可以提取主机名。uri=URI.parse("http://www.ruby-lang.org/")...puri.host#=>"www.ruby-lang.org"据此,我想您可以删除“www.”并使用正则表达式保留其他子域。有没有人有更直接的替代方法或者这种方法是否正确?
我正在使用seleniumwebdriver在浏览器上做一些自动化。现在需要获取当前在浏览器中打开的页面的当前url。我写了下面的代码但是给我错误:element=driver.find_element:name=>"btnSearch"element.clickall_table_data=driver.find_elements(:tag_name,"td")all_table_data.eachdo|td|putstd.textendprintdriver.get_url但它给我一个错误:filedownload.rb:30:in`':undefinedmethod`get_ur
我的应用程序在RoR中我有一个名为showsummary的操作/View,其中ID已传递到URL,并且Controller使用它来实例化@vendor,其中@vendor.name是公司的名称。我希望URL是showsummary/1/而不是在URL中包含/vendor-name。我该怎么做? 最佳答案 所有这些解决方案都使用find_by_name,这肯定需要在该列上有一个索引并且要求它们是唯一的。我们使用的一个更好的解决方案是在供应商名称前加上其ID,但牺牲了一点美观。这意味着您不必在名称列上有索引和/或要求唯一性。供应商.rb
我正在使用ruby和googles反向地理编码yql表来理想地自动化我的一些搜索查询。我遇到的问题是将查询转换为合法的url格式。问题是我使用的编码返回非法url。我正在运行的查询如下query="select*fromgoogle.geocodingwhereq='40.714224,-73.961452'"pQuery=CGI::escape(query)处理后的查询的最终输出如下所示http://query.yahooapis.com/v1/public/yql?q=select+%2A+from+google.geocoding+where+q%3D%2740.371422
我怎样才能像这样解析urlhttp://www.1800contacts.com/productlist.aspx?dl=P&source=cj&ac=8.2.0007只得到http://www.1800contacts.com?附言。有些url有子域等,所以我不能在这里使用正则表达式。 最佳答案 尝试使用“uri”库:require'uri'address='http://www.1800contacts.com/productlist.aspx?dl=P&source=cj&ac=8.2.0007'uri=URI.parse(a